PDF文件的压缩非常常用,python的PyMuPDF包可以对PDF文件进行灵活的自定义压缩。
1. 原理
PDF切分为图片,根据压缩率zoom压缩图片后保存本地;图片合成PDF
2. 依赖
PyMuPDF包
pip install PyMuPDF
3. 代码
import fitz
import os
def covert2pic(zoom):
if os.path.exists('.pdf'): # 临时文件,需为空
os.removedirs('.pdf')
os.mkdir('.pdf')
for pg in range(totaling):
page = doc[pg]
zoom = int(zoom) #值越大,分辨率越高,文件越清晰
rotate = int(0)
print(page)
trans = fitz.Matrix(zoom / 100.0, zoom / 100.0).preRotate(rotate)
pm = page.getPixmap(matrix=trans, alpha=False)
lurl='.pdf/%s.jpg' % str(pg+1)
pm.writePNG(lurl)
doc.close()
def pic2pdf(obj):
doc = fitz.open()
for pg in range(totaling):
img = '.pdf/%s.jpg' % str(pg+1)
imgdoc = fitz.open(img) # 打开图片
pdfbytes = imgdoc.convertToPDF() # 使用图片创建单页的 PDF
os.remove(img)
imgpdf = fitz.open("pdf", pdfbytes)
doc.insertPDF(imgpdf) # 将当前页插入文档
if os.path.exists(obj): # 若文件存在先删除
os.remove(obj)
doc.save(obj) # 保存pdf文件
doc.close()
def pdfz(sor, obj, zoom):
covert2pic(zoom)
pic2pdf(obj)
if __name__ == "__main__":
sor = "source.pdf" # 需要压缩的PDF文件
obj = "new" + sor
doc = fitz.open(sor)
totaling = doc.pageCount
zoom = 200 # 清晰度调节,缩放比率
pdfz(sor, obj, zoom)
os.removedirs('.pdf')
4. 使用
- 脚本和要压缩的PDF需在同一路径下
- sor变量为需要压缩的文件
- zoom用于调整压缩率
- 压缩后使用PDF打印功能导出能够进一步压缩